📱Как кросс-валидация применяется к большим нейросетям (например, GPT-подобным моделям) с миллионами или миллиардами параметров
Полноценная k-фолд кросс-валидация в контексте таких моделей обычно непрактична из-за колоссальных затрат времени и вычислительных ресурсов. Однако есть ряд подходов, позволяющих сбалансировать проверку качества модели и реалистичность обучения:
❗️Возможные стратегии
1. Уменьшенное значение k (Reduced k)
Часто используют просто отложенную выборку (hold-out) или 2-фолд кросс-валидацию. Иногда применяют случайные разбиения несколько раз вместо традиционных 5-10 фолдов.
2. Чекпойнты и частичное повторное использование весов
Хотя обучение на каждом фолде требует разных данных, можно: 🟠дообучать модель с уже натренированными весами, 🟠использовать подходы transfer learning или fine-tuning.
Это не полностью корректно, но снижает затраты.
3. Параллельное и распределённое обучение
Если есть достаточное количество ресурсов (кластер, TPU/облачные GPU), фолды можно обучать параллельно.
4. Субсэмплирование данных
При очень больших датасетах можно делать случайную подвыборку на каждом фолде. Это сохраняет распределение, но уменьшает общий объём обучающих данных.
📱Как кросс-валидация применяется к большим нейросетям (например, GPT-подобным моделям) с миллионами или миллиардами параметров
Полноценная k-фолд кросс-валидация в контексте таких моделей обычно непрактична из-за колоссальных затрат времени и вычислительных ресурсов. Однако есть ряд подходов, позволяющих сбалансировать проверку качества модели и реалистичность обучения:
❗️Возможные стратегии
1. Уменьшенное значение k (Reduced k)
Часто используют просто отложенную выборку (hold-out) или 2-фолд кросс-валидацию. Иногда применяют случайные разбиения несколько раз вместо традиционных 5-10 фолдов.
2. Чекпойнты и частичное повторное использование весов
Хотя обучение на каждом фолде требует разных данных, можно: 🟠дообучать модель с уже натренированными весами, 🟠использовать подходы transfer learning или fine-tuning.
Это не полностью корректно, но снижает затраты.
3. Параллельное и распределённое обучение
Если есть достаточное количество ресурсов (кластер, TPU/облачные GPU), фолды можно обучать параллельно.
4. Субсэмплирование данных
При очень больших датасетах можно делать случайную подвыборку на каждом фолде. Это сохраняет распределение, но уменьшает общий объём обучающих данных.
Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.
Библиотека собеса по Data Science | вопросы с собеседований from sa